Un análiis de los delitos en la Ciudad de Buenos Aires, entre 2016 y 2019
El fin de nuestro proyecto, fue conocer la relación de los delitos en la ciudad, en base a, los horarios en los que ocurren, el tipo crimen y en qué puntos geográficos de la ciudad tienen lugar.
Utilizamos los datos abiertos de la Ciudad de Buenos Aires, más exactamente, el registro de delitos comprendidos entre los años 2016 a 2019.
Generamos una vista general del Dataset, para saber cuáles son las variables que lo componen. En este caso, tenemos un total de 14 variables. Entre ellas, tenemos 12 variables categóricas numéricas y de texto y dos cuantitativas (Hora_delito y cantidad_registrada).
Luego, verificamos como es la estrcutura de cada variable, para poder asi saber si luego tenemos que modificar alguna para poder aplicar nuestro modelo.
Rows: 488,541
Columns: 10
$ id <dbl> 51585, 83256, 117697, 43088, 68588, 8140~
$ fecha <date> 2016-01-01, 2016-01-01, 2016-01-01, 201~
$ franja_horaria <chr> "13", "22", "1", "19", "4", "4", "9", "4~
$ tipo_delito <chr> "Robo (con violencia)", "Robo (con viole~
$ subtipo_delito <chr> NA, NA, "Siniestro Vial", NA, "Robo Auto~
$ cantidad_registrada <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1~
$ comuna <dbl> 9, 14, 4, 9, 6, 14, 1, 4, 9, 3, 1, 10, 8~
$ barrio <chr> "Parque Avellaneda", "Palermo", "Parque ~
$ lat <dbl> -34.64873, -34.57693, -34.64520, -34.655~
$ long <dbl> -58.46854, -58.40740, -58.40110, -58.478~
RESUMEN ESTADISTICO DE LA BASE DE DATOS
A continuacion, usamos la funcion “Summary”, para conocer los valores estadísiticos del Dataset. Así, podemos visualizar: promedios, mínimos y máximos, cuartiles y también conocer si existen valores inexistentes (NAs). En nuestra base de datos, podemos ver que, por un lado el mayor numero de delitos ocurre durante la semana laborable (entiendase Lunes a Viernes), mientras que los fines de semana se puede notar una baja en la cantidad de delitos. Tambien podemos concluir que en base al rango intercuartil de “hora_delito” el 75% de los robos ocurre entre las 10hs a las 19hs
id fecha franja_horaria
Min. : 1 Min. :2016-01-01 Length:488541
1st Qu.:122136 1st Qu.:2016-12-17 Class :character
Median :244271 Median :2017-12-21 Mode :character
Mean :244271 Mean :2017-12-22
3rd Qu.:366406 3rd Qu.:2018-12-18
Max. :488541 Max. :2019-12-31
tipo_delito subtipo_delito cantidad_registrada
Length:488541 Length:488541 Min. :1
Class :character Class :character 1st Qu.:1
Mode :character Mode :character Median :1
Mean :1
3rd Qu.:1
Max. :4
comuna barrio lat
Min. : 1.000 Length:488541 Min. :-34.70
1st Qu.: 3.000 Class :character 1st Qu.:-34.63
Median : 7.000 Mode :character Median :-34.61
Mean : 7.311 Mean :-34.61
3rd Qu.:12.000 3rd Qu.:-34.59
Max. :15.000 Max. :-34.53
NA's :8364 NA's :8364
long
Min. :-58.53
1st Qu.:-58.47
Median :-58.43
Mean :-58.44
3rd Qu.:-58.40
Max. :-58.34
NA's :8364
Se realizarón las siguientes acciones: 1. Se generó una nueva variable categórica con las franjas horarias separándolas en: Madrugada, Mañana, Tarde y Noche. 2. A partír de la variable date, se generaron nuevas variables para obtener características de fecha por separado: año, mes y dia. 3. Por último, se redefinieron las categorías de la variable “Tipo de delito”, para que sea más claro y abreviado
| Tipo de delito | Descripción |
|---|---|
| Homicidio Doloso | Muerte violenta según art. 79 C.P |
| Homicidio Siniestro Vial | Siniestro víal cuya victima resulta en fallecimiento (en el acto o hasta 30 días después del hecho) |
| Hurto | Apoderarse ilegítimamente de un bien ajeno, sin el uso de fuerza en las cosas o violencia en las personas |
| Hurto Automotor | Apoderarse de un vehículo (rodado) completo, con motor y 4 o más ruedas; sin el uso de fuerza en las cosas o violencia en las personas |
| Lesiones SiniestroVial | Siniestro vial, cuya víctima resulta en lesiones (y no resulte fallecida en el acto o hasta 30 días después del hecho) |
| Robo | Apoderarse ilegítimamente de un bien ajeno, a través de la fuerza en las cosas o violencia en las personas |
| Robo_Automotor | Apoderarse de un vehículo (rodado) completo, con motor y 4 o más ruedas; a través de la fuerza en las cosas o violencia en las personas |
En el siguiente grágico se pueden observar la cantidad de ocurrencias por tipo de delito.
En este primer gráfico, se puede percibir, que la mayor cantidad de ocurrencias corresponden a robos y hurtos. Las categorías restantes, correspondientes a:
Tipo de delitos en términos porcentuales
En terminos porcentuales se puede apreciar que 86.27% del total de crímenes, corresponden a robos y hurtos. El resto de categorías representan el 14%.
| Distribucion de delitos | ||
|---|---|---|
| Tipo de delito | Ocurrencias | Porcentaje(%) |
| Robo | 258433 | 54 |
| Hurto | 155776 | 32 |
| Lesiones_SiniestroVial | 31479 | 7 |
| HurtoAutomotor | 22445 | 5 |
| Robo_Automotor | 11057 | 2 |
| Homicidio_SiniestroVial | 485 | 0 |
| Homicidio_Doloso | 459 | 0 |
El dataset analizado comprende los delitos entre los años 2016 y 2019. La siguiente gráfica busca comparar el comportamiento por tipo de delito y por año.
Se observa que las ocurrencias por tipo de caso, se mantiene en proporción. Los robos y hurtos, siguen teniendo un papel protagónico en todo momento.
Se puede observar que durante la semana laboral (lunes a viernes), la variación es mínima. Durante fin de semana (sábado y domingo), las ocurrencias disminuyen, sobre todo, significativamente durante el día domingo. Se podría deducir vagamente, que el aumento de circulación debido a la jornada laboral tiene una relación positiva con numero de ocurrencias.
Se observan que los casos disminuyen por la madrugada y aumentan significativamente durante fin de la tarde y principio de la noche
Mapa de calor
El siguiente gráfico muestra otro desglose por hora
Comparación de tendencia por horas y día de la semana
En la comparación por días de la semana no se observa grandes diferencias, las tendencias se mantienen durante los días correspondientes a los días de jornada laboral.
Para realizar una explorarción desde la perspectiva geografica de la ciudad de Buenos Aires, se realizó el siguiente análisis por comunas.
Antes de continuar con este análisis greográficos, creemos pertinente las siguientes aclaraciones:
Se denomina comunas a las unidades político administrativas en las que se divide la Ciudad Autónoma de Buenos Aires en Argentina. Esta división de segundo orden es, en algunos sentidos, el equivalente a los partidos-municipios de la vecina provincia de Buenos Aires y a los departamentos del resto de las provincias de Argentina. (fuente Wikipedia - Comunas de la ciudad de Buenos Aires)
Los barrios que representan a cada comuna son los siguientes:
COMUNA 1. Retiro, San Nicolás, Puerto Madero, San Telmo, Montserrat y Constitución
COMUNA 2. Recoleta
COMUNA 3. Balvanera y San Cristóbal
COMUNA 4. La Boca, Barracas, Parque Patricios y Nueva Pompeya
COMUNA 5. Almagro y Boedo
COMUNA 6. Caballito
COMUNA 7. Flores y Parque Chacabuco
COMUNA 8. Villa Soldati, Villa Riachuelo y Villa Lugano
COMUNA 9. Liniers, Mataderos y Parque Avellaneda
COMUNA 10. Villa Real, Monte Castro, Versalles, Floresta, Vélez Sarfield y Villa Luro
COMUNA 11. Villa General Mitre, Villa Devoto, Villa del Parque y Villa Santa Rita
COMUNA 12. Coghlan, Saavedra, Villa Urquiza y Villa Pueyrredón
COMUNA 13. Núñez, Belgrano y Colegiales
COMUNA 14. Palermo
COMUNA 15. Chacarita, Villa Crespo, La Paternal, Villa Ortúzar, Agronomía y Parque Chas
Este gráfico muestra la ocurrencia de delitos por comuna.
La comuna con mayor cantidad de eventos, que represnetamos en el grafico a continuacion, fue la comuna 1 y luego la siguieron las comunas 3, 4, 14 y 7. Lo importante a destacar de la comuna 1, es que es la comuna en la cual están por un lado los principales atractivos turisticos de la ciudad y también tienen lugar, las empresas mas importantes que centran sus actividades ahi, entre ellas hay: Bancos, Aseguradoras, Empresas de telecomunicaciones, etc…
| Distribucion de delitos por comuna | ||
|---|---|---|
| Comuna | Ocurrencias | Porcentaje(%) |
| comuna 1 | 69197 | 14 |
| comuna 3 | 42121 | 9 |
| comuna 4 | 39448 | 8 |
| comuna 14 | 38337 | 8 |
| comuna 7 | 35148 | 7 |
| comuna 13 | 29260 | 6 |
| comuna 15 | 28376 | 6 |
| comuna 9 | 28322 | 6 |
| comuna 5 | 27747 | 6 |
| comuna 8 | 24812 | 5 |
| comuna 12 | 24463 | 5 |
| comuna 11 | 24018 | 5 |
| comuna 10 | 23812 | 5 |
| comuna 2 | 22565 | 5 |
| comuna 6 | 22508 | 5 |
Se puede observar que la comuna 1, tiene significativamente más casos que el resto de las unidades de gestión. Junto con la comuna 3, 4 y 14, representan el 39% de las observaciones.
En cuanto a los promedios y rangos intercuartiles del numero de casos por comuna, se puede observar, al igual que en las anteriores representaciones, la comuna 1 es la que mayor cantidad de ocurrencias tiene.
Al igual que las comparaciones generales, las distribución a lo largo de los años observados se mantienen y no se observa variaciones significativas o destacables.
Por otro lado, mas alla de el maximo numero de ocurrencias en cada comuna por año. También, hubo comunas que lograron, de forma existosa, disminuir el número de delitos en sus respectivos barrios, dicho argumento podemos avalarlo con los siguiente graficos, las comunas de las cuals hablamos son: 7, 9, 8, 11, 10 y 6.
En este gráfico, se muestra el ranking de las 3 comunas con mas casos en cada franja horarias. Nuevamente, se puede observar que en los horarios de la Mañana y la Tarde, se concentran la maor cantidad de ocurrencias.
##Clusters realizados por comuna
A fin de agrupar las comunas según la ocurrencia de delitos, se procedió a la confección del cluster.
Una vez confeccionado el cluster de cada comuna, se generó la representación gráfica del mismo.
A través del cluster, podemos reafirmar que la comuna con más casos es 1.
REPRESENTACION DE DELITOS EN CLUSTERS CON GRAFICO BOXPLOT
Se realizó una representacion de los clustes en un grafico del tipo “boxplot” para podes visulizar las ocurrencias de los delitos por año en cada comuna, como se muestra a continuación.
Una vez que ya conocimos en un aspecto mas macro, las comunas y las cantidades de delitos que contre cada una de ellas. El siguiente paso fue conocer mas en profundidad, en cada comuna, cuales son los barrios con mayor numero de transgresiones en el total de años, lo cual fue mostrando en el grafico a continuación.
Lo que logramos concluir del gráfico anterior, es que los barrios con mayor numero de casos: Palermo, Balvanera, Flores, San Nicolas, Recoleta y Caballito. Ahora, para conocer que tran representativo del total de barrios, son los numeros presenetados previamente, calculamos el porcentaje de eventos en cada barrio.
| Porcentaje de delitos por barrio | ||
|---|---|---|
| Barrio | Ocurrencias | Porcentaje |
| Barrio Palermo | 38337 | 8 % |
| Barrio Balvanera | 33747 | 7 % |
| Barrio Flores | 24896 | 5 % |
| Barrio San Nicolás | 23409 | 5 % |
| Barrio Recoleta | 22565 | 5 % |
| Barrio Caballito | 22508 | 5 % |
| Barrio Almagro | 19868 | 4 % |
| Barrio Belgrano | 16026 | 3 % |
| Barrio Villa Lugano | 15140 | 3 % |
| Barrio Barracas | 14128 | 3 % |
| Barrio Constitución | 13395 | 3 % |
| Barrio Retiro | 12883 | 3 % |
| Barrio Villa Crespo | 12606 | 3 % |
| Barrio Monserrat | 12234 | 3 % |
| Barrio Mataderos | 11529 | 2 % |
| Barrio Nueva Pompeya | 10502 | 2 % |
| Barrio Villa Urquiza | 10321 | 2 % |
| Barrio Parque Chacabuco | 10252 | 2 % |
| Barrio Liniers | 9072 | 2 % |
| Barrio Villa Devoto | 8444 | 2 % |
| Barrio San Cristóbal | 8374 | 2 % |
| Barrio Parque Patricios | 8153 | 2 % |
| Barrio Boedo | 7879 | 2 % |
| Barrio Parque Avellaneda | 7721 | 2 % |
| Barrio Saavedra | 7622 | 2 % |
| Barrio Nuñez | 7451 | 2 % |
| Barrio Villa Soldati | 7156 | 1 % |
| Barrio Boca | 6665 | 1 % |
| Barrio San Telmo | 6621 | 1 % |
| Barrio Floresta | 6369 | 1 % |
| Barrio Chacarita | 6340 | 1 % |
| Barrio Villa del Parque | 5824 | 1 % |
| Barrio Colegiales | 5783 | 1 % |
| Barrio Villa Gral. Mitre | 4995 | 1 % |
| Barrio Vélez Sársfield | 4810 | 1 % |
| Barrio Villa Santa Rita | 4755 | 1 % |
| Barrio Villa Luro | 4526 | 1 % |
| Barrio Villa Pueyrredón | 4471 | 1 % |
| Barrio Monte Castro | 4146 | 1 % |
| Barrio Paternal | 2872 | 1 % |
| Barrio Villa Ortuzar | 2690 | 1 % |
| Barrio Villa Riachuelo | 2516 | 1 % |
| Barrio Coghlan | 2049 | 0 % |
| Barrio Versalles | 2023 | 0 % |
| Barrio Parque Chas | 1971 | 0 % |
| Barrio Villa Real | 1938 | 0 % |
| Barrio Agronomía | 1897 | 0 % |
| Barrio Puerto Madero | 655 | 0 % |
El siguiente diagrama de cajas nos permite observar la distribucion de ocurrencias de delitos para todos los barrios.
De la misma manera que se analizaron las comunas de manera interanual, se procedio con el analisis para los barrios de estudio. Se puede observar que muchos barrios han tenido decrecimientos en la ocurrencia de delitos conforme avanzaron los años desde 2016 a 2019.
En la siguiente grafica se puede observar la ocurrencia de delitos por año y por barrio. Los barrios de Palermo, Balvanera y Flores están dentro de los tres barrios con mayor cantidad de ocurrencias.
A los fines de conocer el comportamiento en cada años de la canitdad de delitos, realizamos un grafico con las ocurrencias semanales de todos los eventos delictivos. Pudimos observar, que el promedio semanal de crimenes para todos los años es cercano a los 2200 delitos semanales. Magnitud que no ha cambiado con el correr del tiempo.
| Promedio de delitos por año | |
|---|---|
| Año | Promedio semanal |
| 2016 | 2376.491 |
| 2017 | 2239.698 |
| 2018 | 2234.321 |
| 2019 | 2208.623 |
Sin embargo, existen barrios en los cuales el número de ocurrencias a disminuido con el correr de los años entre 2016 y 2019. Tal es el caso de los barrios que se presentan en el gráfico siguiente.
Como se pude observar del analisis, existe un gran contraste en los delitos segun barrios en los que ocurren. En el siguiente gráfico, Palermo se presenta como una la las ubicaciones con mayor incidencia para cometer delitos. Mientras que los barrios como Villa Real, entre otros, contrasta con un menor numero de delitos.
Finalmente, se realizó un conteo de casos según horario de ocurrencia para todos los barrios analizados. En el siguiente grafico se muestras los 3 barrios con mayor cantidad de casos según el horario de análisis.
De la misma manera, se indexamos el tipo de delito al numero de ocurrecias para todos los barrios analizados. En el siguiente gráfico se muestran los 3 barrios con mayor cantidad de casos según el el tipo de delito. Lo importante a destacar del siguiente grafico, es que podemos dar a conocer el tipo de delito que ocurre un mayor número de veces en los distintos barrios y como algunos se repiten en mas de un gráfico, como es el caso de Flores y Palermo.
En complemento al análisis de los barrios y el tipo de hechos delictivos que ocurren, complementamos también un cluster, mostrando como se segmentan los crimenes en los barrios.
Para poder hacer una visuazliación de forma mas generalizada del total de delitos en todos los barrios, en el siguiente gráfico, se puede observar, cuales son los lugares con mayor promedio de transgresiones. Los barrios como Balvanera y Palermo, son los que mas destacan, no solo por el promedio de ocurrencias, sino tambien por sus maximos y minímos que tienen mayor preponderancia, los de los barrios restantes.
MAPA DE CALOR DE LA CIUDAD DE BUENOS AIRES
Por otra parte, para poder dar a conocer en base a los puntos geográficos, las zonas con mayores ocurrencias, utilizamos el siguiente mapa para poder destacar los puntos con mayor concentracion de crimenes, dicho mapa en base al análisis previamente realizado, deberia coincidir con la investigación ya generada.
Reading layer `CABA_rc' from data source `https://bitsandbricks.github.io/data/CABA_rc.geojson' using driver `GeoJSON'
Simple feature collection with 3554 features and 8 fields
Geometry type: MULTIPOLYGON
Dimension: XY
Bounding box: xmin: -58.53092 ymin: -34.70574 xmax: -58.33455 ymax: -34.528
Geodetic CRS: WGS 84
En el siguiente gráfico, aplicamos el mapa de calor, sobre la Ciudad de buenos aires. En dicho gráfico, se puede ver que las zonas con mayor ocurrencia de hechos delictivos, con congruentes, con el analisis relizado, ya que se relfeja la mayor ocurrencia de los mismos, en zonas centricas de la ciudad, como la comuna 1 y tabmbien en barrios, como Palermo y Balvanera.
También, desde otro punto de vista, generamos un mapa de calor, pero discriminando en base al tipo de crimen y su ocurrencia en distintas partes de la ciudad. Lo que se puede concluir del mismo es que tanto los robos como los hurtos siguen teniendo un papel destacado en esta investigación y los mismos tienen mayor repeticion en las comunas y barrios antes mencionados.
Reading layer `subte_estaciones' from data source `http://bitsandbricks.github.io/data/subte_estaciones.geojson' using driver `GeoJSON'
Simple feature collection with 86 features and 3 fields
Geometry type: POINT
Dimension: XY
Bounding box: xmin: -58.48639 ymin: -34.64331 xmax: -58.36993 ymax: -34.55564
Geodetic CRS: WGS 84
Para porfundizar mas en la raíz del motivo por el cual los crímenes se daban mas en zonas centricas de la ciudad, formulamos una teoría de que podia llegar a haber una relación entre las bocas de subtes y los delitos. A continuación superpusimos un gráfico de calor, con otro mostrando los puntos de bocas de subte en la Ciudad de Buenos Aires. En dicho análisis pudimos encontrar que en las bocas de subte, y mucho mas en las intersecciones con otras lineas de subte, el numero de ocurrencias era mayor y cobraba mas relevancia a medida que se acercaba a la parte mas centrica de la ciudad.
Se pudo resolver del analisis previamente hecho, que la Ciuad de Buenos Aires como ocurre en general en las ciudades, al tener una gran concentración de habitantes, esto genera una mayor probabilidad de que ocurran hechos delictivos. Dichos crimenes de igual manera, no se dan todos de forma uniforme, sino que hay crimenes que tienen una ponderacion mucho mas elvada que otros, como son los robos y hurtos. También, no solo el tipo de crimen no es homogéneo, sino que los puntos geograficos, tampoco lo son, ya que como comentabamos previamente, zonas centricas, mas al este de la ciudad o barrios como Palermo un mayor numero de ocurrencias a diferencia de zonas mas al oeste de la ciudad o barrios como Villa Real que sus numeros de ocurrencia son mucho menor.